已经提出了各种模型来执行对象检测。但是,大多数人都需要许多手工设计的组件,例如锚和非最大抑制(NMS),以表现出良好的性能。为了减轻这些问题,建议了基于变压器的DETR及其变体可变形DETR。这些解决了为对象检测模型设计头部时的许多复杂问题。但是,当将基于变压器的模型视为其他模型的对象检测中的最新方法时,仍然存在对性能的疑问,这取决于锚定和NMS,揭示了更好的结果。此外,目前尚不清楚是否可以仅与注意模块结合使用端到端管道,因为Detr适应的变压器方法使用卷积神经网络(CNN)作为骨干身体。在这项研究中,我们建议将几个注意力模块与我们的新任务特异性分裂变压器(TSST)相结合是一种有力的方法,可以在没有传统手工设计的组件的情况下生成可可结果上最先进的性能。通过将通用注意模块分为两个分开的目标注意模块,该方法允许设计简单的对象检测模型。对可可基准的广泛实验证明了我们方法的有效性。代码可在https://github.com/navervision/tsst上获得
translated by 谷歌翻译
最近的成功表明,可以通过文本提示来操纵图像,例如,在雨天的晴天,在雨天中被操纵到同一场景中,这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器,该生成器利用多模式(文本和图像)嵌入空间。但是,我们观察到,这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈,例如将大雨与雨雨区分开。为了解决这个问题,我们主张利用另一种方式,声音,在图像操纵中具有显着优势,因为它可以传达出比文本更多样化的语义提示(生动的情感或自然世界的动态表达)。在本文中,我们提出了一种新颖的方法,该方法首先使用声音扩展了图像文本接头嵌入空间,并应用了一种直接的潜在优化方法来根据音频输入(例如雨的声音)操纵给定的图像。我们的广泛实验表明,我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果,这通过我们的人类评估进一步证实。我们的下游任务评估还表明,我们学到的图像文本单嵌入空间有效地编码声音输入。
translated by 谷歌翻译
人类的生态成功依赖于我们在合作社会群体中灵活地组织的特征能力。成功的团体采用实质性专业和劳动分工。与大多数其他动物不同,人类在生活中通过反复试验学习什么角色。但是,当某些关键角色比其他角色更具吸引力,并且个人是自私的,那么就会存在社会困难:每个人都希望其他人扮演关键但无人机的角色,因此他们可能会自由自在地接受一个付费的人更好的。但是,如果所有人都采取行动,并且关键作用没有填补,就会发生灾难。在这种情况下,学习最佳角色分布可能是不可能的。因此,一个基本的问题是:劳动分裂如何在自私自利的学习个人群体中出现?在这里,我们表明,通过引入一种社会规范模型,我们将其视为分散的社会制裁模式,自私自利的个人群体可以学习涉及所有关键角色的劳动力划分。这种社会规范是通过重新分配人口中的奖励来努力使反社会角色不利的,同时激励亲社会角色,而这些角色不像本质上一样付出。
translated by 谷歌翻译
在本文中,我们提出了Sanane-TTS,这是一种稳定且自然的端到端多语言TTS模型。由于很难为给定的演讲者获得多语言语料库,因此不可避免地会使用单语语料库进行多语言TTS模型。我们介绍了扬声器正规化损失,该损失可改善跨语性合成期间的语音自然性以及域对抗训练,该训练适用于其他多语言TTS模型。此外,通过添加扬声器正规化损失,以持续时间为零矢量嵌入的扬声器可以稳定跨语性推断。通过此替代品,我们的模型将产生以中等节奏的语音,而不论跨语性合成中的源说话者如何。在MOS评估中,Sane-TTS在跨语义和内部合成中的自然性得分高于3.80,地面真相评分为3.99。同样,即使在跨语性的推论中,Sane-TTS也保持了接近地面真理的说话者相似性。音频样本可在我们的网页上找到。
translated by 谷歌翻译
尽管化学实验室中基于机器人的自动化可以加速材料开发过程,但无监视的环境可能主要是由于机器控制误差而导致的危险事故。对象检测技术可以在解决这些安全问题方面发挥至关重要的作用;但是,包括单杆检测器(SSD)模型在内的最先进的探测器在涉及复杂和嘈杂场景的环境中的精度不足。为了改善无监视实验室的安全性,我们报告了一种新颖的深度学习(DL)基于对象探测器,即Densessd。对于检测小瓶位置的首要问题和频繁的问题,根据涉及空和溶液填充的小瓶的复杂数据集的平均平均精度(MAP)超过95%,大大超过了传统探测器的平均精度(MAP)。如此高的精度对于最大程度地减少故障引起的事故至关重要。此外,观察到致密的对环境变化高度不敏感,在溶液颜色或测试视图角度的变化下保持其高精度。致密性的稳健性将使使用的设备设置更加灵活。这项工作表明,密集是在自动化材料合成环境中提高安全性很有用,并且可以扩展到需要高检测精度和速度的各种应用。
translated by 谷歌翻译
Stylegan最近的成功表明,预训练的Stylegan潜在空间对现实的视频生成很有用。但是,由于难以确定stylegan潜在空间的方向和幅度,因此视频中产生的运动通常在语义上没有意义。在本文中,我们提出了一个框架来通过利用多模式(声音图像文本)嵌入空间来生成现实视频。由于声音提供了场景的时间上下文,因此我们的框架学会了生成与声音一致的视频。首先,我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后,我们结合了基于夹子的多模式嵌入空间,以进一步提供视听关系。最后,提出的帧发电机学会在潜在空间中找到轨迹,该空间与相应的声音相干,并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集(视听对)。实验表明,我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序,包括图像和视频编辑,以验证我们方法的有效性。
translated by 谷歌翻译
受微分方程式启发的深度学习是最近的研究趋势,它标志着许多机器学习任务的最先进的表现。其中,具有神经控制的微分方程(NCDE)的时间序列建模被认为是突破。在许多情况下,基于NCDE的模型不仅比复发性神经网络(RNN)提供了更好的准确性,而且还可以处理不规则的时间序列。在这项工作中,我们通过重新设计其核心部分,即从离散的时间序列输入产生连续路径来增强NCDES。 NCDE通常使用插值算法将离散的时间序列样本转换为连续路径。但是,我们向i)提出建议,使用编码器解码器体系结构生成另一个潜在的连续路径,该架构对应于NCDE的插值过程,即我们的基于神经网络的插值与现有的显式插值相对于现有的显式插值以及II)解码器的外推超出了原始数据的时域的外推。因此,我们的NCDE设计可以同时使用插值和外推信息进行下游机器学习任务。在我们使用5个现实世界数据集和12个基线的实验中,我们的外推和基于插值的NCDES超过了非平凡的边缘的现有基线。
translated by 谷歌翻译
随机分区模型被广泛用于贝叶斯方法中,用于各种聚类任务,例如混合模型,主题模型和社区检测问题。尽管已经对随机分区模型诱导的簇数量进行了广泛的研究,但在很大程度上忽略了有关分区平衡性的另一个重要模型属性。我们通过分析模型如何为具有不同级别平衡度的分区分配概率来定义和理论上研究和理论上研究可交换随机分区模型的平衡性的框架。我们证明,许多现有流行的随机分区模型的“丰富”特征是两个共同假设的必然结果:产品形式的交换性和投影率。我们提出了一种比较随机分区模型的平衡性的原则方法,该模型可以更好地理解哪些模型的工作方式更好,而对于不同的应用程序而言,哪些模型的工作方式更好。我们还介绍了“富裕者”随机分区模型,并说明了它们在实体解决任务中的应用。
translated by 谷歌翻译
部署在野外的机器学习系统通常在源分布上培训,但部署在不同的目标分布上。未标记的数据可以是用于缓解这些分布班次的强大的利用点,因为它通常比标记数据更具可用。然而,未标记数据的现有分配转换基准不反映现实世界应用中出现的方案的广度。在这项工作中,我们介绍了Wilds 2.0更新,该更新在分发转移的野外基准中扩展了10个数据集中的8个,以包括将在部署中逼真获得的策划未标记数据。为了保持一致性,标记的培训,验证和测试集以及评估度量与原始野外基准中的标记与评估度量完全相同。这些数据集涵盖了广泛的应用程序(从组织学到野生动物保护),任务(分类,回归和检测)和方式(照片,卫星图像,显微镜载玻片,文本,分子图)。我们系统地基准测试最先进的方法,可以利用未标记的数据,包括域不变,自我培训和自我监督方法,并表明他们在野外的成功2.0是有限的。为了方便方法开发和评估,我们提供了一个自动化数据加载的开源包,并包含本文中使用的所有模型架构和方法。代码和排行榜可在https://wilds.stanford.edu获得。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译